Un graphe génératif pour la classification semi-supervisée
نویسندگان
چکیده
RÉSUMÉ. Nous proposons un nouvel algorithme semi-supervisé qui combine un modèle de mélange gaussien pour modéliser localement les données, et un graphe génératif construit sur les composants du mélange pour capturer la structure globale des données. La combinaison est réalisée via un processus de propagation d’étiquettes au travers du graphe. Contrairement aux algorithmes de l’état de l’art, le modèle de graphe utilisé est génératif de telle sorte que son optimisation peut être effectuée à l’aide de l’algorithme EM (Espérance-Maximisation) afin de maximiser sa vraisemblance. De plus, l’unique méta-paramètre (le nombre de composants du mélange) peut être sélectionné par un critère statistique. L’algorithme obtient des résultats expérimentaux similaires aux algorithmes comparables lorsque le nombre de données étiquetées est faible, et offre l’avantage de n’avoir aucun paramètre à régler manuellement.
منابع مشابه
Un modèle génératif pour l'Apprentissage de la Topologie
Résumé. Un nuage de points est plus qu’un ensemble de points isolés. La distribution des points peut être gouvernée par une structure topologique cachée, et du point de vue de la fouille de données, modéliser et extraire cette structure est au moins aussi important que d’estimer la seule densité de probabilité du nuage. Dans cet article, nous proposons un modèle génératif basé sur le graphe de ...
متن کاملA predictive deviance criterion for selecting a generative model in semi-supervised classification
Semi-supervised classification can be hoped to improve generative classifiers by taking profit of the information provided by the unlabeled data points, especially when there are far more unlabeled data than labeled data. This paper is concerned with selecting a generative classification model from both unlabeled and labeled data. We propose a predictive deviance criterion AICcond aiming to sel...
متن کاملClassification structurée pour l'apprentissage par renforcement inverse
Résumé : Cette contribution traite du problème de l’apprentissage par imitation par le biais de l’apprentissage par renforcement inverse (ARI). Dans ce contexte, un expert accomplit une tâche qu’un agent artificiel doit essayer de reproduire. L’ARI part du postulat que l’expert optimise avec succès une fonction de récompense ; le problème consiste à deviner cette fonction à partir de traces du ...
متن کاملSemi-supervised incremental clustering of categorical data
Résumé. Le clustering semi-supervisé combine l’apprentissage supervisé and non-supervisé pour produire meilleurs clusterings. Dans la phase initiale supervisée de l’algorithme, un échantillon d’apprentissage est produit par selection aléatoire. On suppose que les exemples de l’échantillon d’apprentissage sont étiquetés par un attribut de classe. Puis, un algorithme incrémentiel développé pour l...
متن کاملSous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne
RÉSUMÉ. Ce papier aborde la question de la classification non supervisée de documents, dans un contexte de veille sur le Web (corpus de taille moyenne). Notre but est d’assister le veilleur dans deux tâches : 1. dégager des thématiques à partir du corpus ; 2. ranger chaque texte dans une ou plusieurs de ces thématiques. Nous proposons une approche linguistique, reposant sur les plus proches voi...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Ingénierie des Systèmes d'Information
دوره 15 شماره
صفحات -
تاریخ انتشار 2010